Loading...
机构名称:
¥ 1.0

鉴于大语言模型(LLMS)的出色表现,出现了一个重要的问题:LLM可以进行类似人类的科学研究并发现新知识,并充当AI科学家吗?科学分解是一个迭代过程,需要有效的知识更新和编码。它涉及理解环境,识别新的假设以及对行动的推理;但是,没有专门为LLM代理的科学发现设计的标准化基准。响应这些限制的局面,我们引入了一个新颖的基准,即自动基准,该基准包括必要的方面,以评估自然科学和社会科学中的科学发现的LLM。我们的基准测试基于因果图剖面的原理。它挑战模型以发现隐藏的结构并做出最佳决策,其中包括生成有效的理由。通过与甲骨文进行交互性结合,这些模型通过战略干预措施迭代地完善了他们对不认识的相互作用,化学和社会传播的理解。我们评估了最新的LLM,包括GPT-4,Gemini,Qwen,Claude和Llama,并且随着问题的复杂性的增加而观察到显着的性能下降,这表明机器和人类智慧之间的重要差距表明,未来LLMS的未来发展需要考虑。

arxiv:2502.15224v1 [cs.lg] 2025年2月21日

arxiv:2502.15224v1 [cs.lg] 2025年2月21日PDF文件第1页

arxiv:2502.15224v1 [cs.lg] 2025年2月21日PDF文件第2页

arxiv:2502.15224v1 [cs.lg] 2025年2月21日PDF文件第3页

arxiv:2502.15224v1 [cs.lg] 2025年2月21日PDF文件第4页

arxiv:2502.15224v1 [cs.lg] 2025年2月21日PDF文件第5页

相关文件推荐

2025 年
¥1.0